查看原文
其他

颠覆蛋白设计,生物界的ChatGPT要来了?

药明康德 药明康德 2023-03-06

▎药明康德内容团队编辑

近一段时间,ChatGPT可谓是火遍全网。这款基于人工智能的工具在聊天上几乎可以以假乱真,让人分辨不出和自己在说话的究竟是人还是AI。更夸张的是,诞生不到2个月,它已经撼动了许多领域:因为它写出的论文质量极高,教育系统甚至已经开始考虑“封杀”这个程序,以防学生利用它作弊;也因为即便是专家也难以区分这些内容是否来自AI,《自然》在内的多家科学杂志也要求论文中需要明确指出是否使用了ChatGPT。此外,它还通过了美国商学院、法学院和医学院的资格考试。尽管分数并不顶尖,却也足以让人感叹AI有多强。

而类似的AI工具,可能将要变革生物医药领域……

日前,科学家们利用与ChatGPT背后AI模型类似的算法,创建了一款能从头生成人工蛋白的AI系统,在实验检测中,它生成的蛋白酶虽然氨基酸序列与大自然中发现的天然酶迥然不同,但是功能却可与之媲美。文章作者表示,这个AI系统就好比“生物学的ChatGPT”,将颠覆创新蛋白的生成模式。


ChatGPT背后的大型语言模型利用对海量人类语言数据的分析,学习人类语言的语法和其它特征。在这项研究中,研究人员同样使用了深度学习语言模型,与ChatGPT不同的是,他们给这款名为ProGen的模型输入的不是人类的语言和文字,而是约2.8亿个蛋白质序列,它们来自近两万个蛋白家族,并且包括描述蛋白特征的信息。从中,ProGen学习到了蛋白中氨基酸排序的规律,以及它们与蛋白结构和功能的关系。研究人员表示,这就像是在学习蛋白结构和生物学的“语言”。


研究人员在这一研究中让ProGen生成能够杀死细菌的溶菌酶。从AI模型生成的上百万个蛋白序列中,他们基于人工蛋白与自然蛋白的相似程度,以及AI蛋白模拟自然氨基酸排列“语法”的相似度选出了100个候选蛋白。再从这100个蛋白中进一步筛选出5个人工蛋白,对它们的溶菌活性进行检测。结果显示,其中两款人工合成的溶菌酶能够溶解细菌的细胞壁,而且活性与大自然中出现的鸡蛋清溶菌酶(HEWL)类似。然而,这两款人工蛋白的氨基酸序列与任何已知蛋白之间只有90%和70%的重复,代表着在大自然中从未出现过的全新蛋白。


图片来源:123RF


研究人员表示这一新技术可能比获得诺贝尔奖的定向进化(directed evolution)蛋白设计技术更有威力,给蛋白工程学领域注入新的活力。基于ProGen系统,文章的第一作者Ali Madani博士联合创建的新锐公司Profluent也在日前浮出水面。在接受行业媒体Endpoints News采访时,他表示未来的新药开发将不再以实验驱动为主,AI只起到辅助作用。当AI能够充当蛋白和生物学“语言”的翻译官时,我们将不再需要在大自然中无穷无尽的寻找,或者受到传统蛋白工程学的局限。


“语言模型学习了进化的知识,但是它与普通的进化过程不同。”论文的作者之一,加州大学旧金山分校的James S. Fraser博士说,“我们现在有能力生成具有特定性质的蛋白,比如生成热稳定性极高的蛋白,或者让它与特定蛋白结合。”


▲ProGen等AI系统能够从头设计具有特定功能的全新蛋白(图片来源:参考资料[2])


2022年是人工智能设计全新分子屡获突破的一年。在AlphaFold精准解析蛋白质三维结构之后,华盛顿大学David Baker教授团队去年接连在《自然》、《细胞》上发文,介绍AI设计全新药物的新途径。Generate Biomedicine公司也推出了基于新算法的AI平台,能够按照研究人员要求,定制具有特定特征的全新蛋白结构。《药明康德》的读者也将人工智能设计全新分子选为2022年生物医药年度突破榜单之首


利用语言模型生成全新蛋白,为蛋白设计和新药开发增添了基于AI的新策略。在日前结束的第41届JP摩根医疗健康大会上,科技公司Nvidia的报告指出,AI生物学领域近年来突飞猛进,能够像人类一样输出创新内容的生成式人工智能(generative AI)和在ChatGPT和ProGen背后的大型语言模型(LLM)将促进生物学的工程化。“到2025年,生成式AI技术将系统性发现超过30%的新药和新材料!


图片来源:Nvidia官网


在日前结束的2023药明康德全球论坛上,多位专家在谈及产业创新时共同指出,将研发模式从“试错型”转变为“预测型”,是创新的关键之一。而大数据和先进算法是其中不可或缺的元素。期待人工智能在新药发现和开发领域迎来更多成功,让更多好药新药加速问世,造福全球病患!


相关阅读:AlphaFold之后的下一步?人工智能在临床开发中的新趋势(附84家新锐融资列表下载)| 年度盘点




药明康德为全球生物医药行业提供一体化、端到端的新药研发和生产服务,服务范围涵盖化学药研发和生产、生物学研究、临床前测试和临床试验研发、细胞及基因疗法研发、测试和生产等领域。如您有相关业务需求,欢迎点击下方图片填写具体信息。

如您有任何业务需求,请长按扫描上方二维码,或点击文末“阅读原文/Read more”,即可访问业务对接平台,填写业务需求信息


▲欲了解更多前沿技术在生物医药产业中的应用,请长按扫描上方二维码,即可访问“药明直播间”,观看相关话题的直播讨论与精彩回放


参考资料:
[1] Madani et al., (2023). Large language models generate functional protein sequences across diverse families. Nature Biotechnology, https://doi.org/10.1038/s41587-022-01618-2
[2] Profluent debuts to design proteins with machine learning in bid to move past 'AI sprinkled on top'. Retrieved January 27, 2023, from https://endpts.com/exclusive-profluent-debuts-to-design-proteins-with-machine-learning-in-bid-to-move-past-ai-sprinkled-on-top/
[3] AI Technology Generates Original Proteins from Scratch. Retrieved January 27, 2023, from https://www.ucsf.edu/news/2023/01/424641/ai-technology-generates-original-proteins-scratch
[4] Tools such as ChatGPT threaten transparent science; here are our ground rules for their use. Retrieved January 27, 2023, from https://www.nature.com/articles/d41586-023-00191-1
[5] NVIDIA Highlights AI, Large Language Model Advances in Life Sciences. Retrieved January 27, 2023, from https://www.bio-itworld.com/news/2023/01/20/nvidia-highlights-ai-large-language-model-advances-in-life-sciences
[6] JP Morgan Health 2023. Retrieved January 27, 2023, from https://s201.q4cdn.com/141608511/files/doc_presentations/2023/JPM23_Keynote_vFinal_IR.pdf
[7] Profluent. Retrieved January 27, 2023, from  https://www.profluent.bio/technology


免责声明:药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的,文中观点不代表药明康德立场,亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导,请前往正规医院就诊。


版权说明:本文来自药明康德内容团队,欢迎个人转发至朋友圈,谢绝媒体或机构未经授权以任何形式转载至其他平台。转载授权请在「药明康德」微信公众号回复“转载”,获取转载须知。


分享在看,聚焦全球生物医药健康创新

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存